首页> 外文OA文献 >Bilingual Document Alignment with Latent Semantic Indexing
【2h】

Bilingual Document Alignment with Latent Semantic Indexing

机译:具有潜在语义索引的双语文档对齐

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

We apply cross-lingual Latent Semantic Indexing to the Bilingual Document Alignment Task at WMT16. Reduced-rank singular value decomposition of a bilingual term-document matrix derived from known English/French page pairs in the training data allows us to map monolingual documents into a joint semantic space. Two variants of cosine similarity betweenthe vectors that place each document into the joint semantic space are combined with a measure of string similarity between corresponding URLs to produce 1:1 alignmentsof English/French web pages in a variety of domains. The system achieves a recall of ca. 88% if no in-domain data is used for building the latent semantic model, and 93% if such data is included. Analysing the system’s errors on the training data, we argue that evaluating aligner performance based on exact URL matches under-estimates their true performance and propose an alternative that is able to account for duplicates and near-duplicates in the underlying data.
机译:我们将跨语言潜在语义索引应用于WMT16的双语文档对齐任务。从训练数据中的已知英语/法语页面对导出的双语术语-文档矩阵的降序奇异值分解使我们能够将单语文档映射到联合语义空间中。将每个文档置于联合语义空间中的向量之间的余弦相似度的两个变体与相应URL之间的字符串相似度的度量结合在一起,以在各种域中产生英语/法语网页的1:1对齐。该系统可实现约的召回率。如果没有域内数据用于构建潜在语义模型,则为88%;如果包含此类数据,则为93%。通过分析系统在训练数据上的错误,我们认为基于精确的URL匹配评估对齐器性能会低估其真实性能,并提出了一种替代方案,该方案能够解决基础数据中的重复项和几乎重复项。

著录项

  • 作者

    Germann, Ulrich;

  • 作者单位
  • 年度 2016
  • 总页数
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号